As a natural extension of the image synthesis task, video synthesis has attracted a lot of interest recently. Many image synthesis works utilize class labels or text as guidance. However, neither labels nor text can provide explicit temporal guidance, such as when an action starts or ends. To overcome this limitation, we introduce semantic video scene graphs as input for video synthesis, as they represent the spatial and temporal relationships between objects in the scene. Since video scene graphs are usually temporally discrete annotations, we propose a video scene graph (VSG) encoder that not only encodes the existing video scene graphs but also predicts the graph representations for unlabeled frames. The VSG encoder is pre-trained with different contrastive multi-modal losses. A semantic scene graph-to-video synthesis framework (SSGVS), based on the pre-trained VSG encoder, VQ-VAE, and auto-regressive Transformer, is proposed to synthesize a video given an initial scene image and a non-fixed number of semantic scene graphs. We evaluate SSGVS and other state-of-the-art video synthesis models on the Action Genome dataset and demonstrate the positive significance of video scene graphs in video synthesis. The source code will be released.
translated by 谷歌翻译
在过去的几年中,用于计算机视觉的深度学习技术的快速发展极大地促进了医学图像细分的性能(Mediseg)。但是,最近的梅赛格出版物通常集中于主要贡献的演示(例如,网络体系结构,培训策略和损失功能),同时不知不觉地忽略了一些边缘实施细节(也称为“技巧”),导致了潜在的问题,导致了潜在的问题。不公平的实验结果比较。在本文中,我们为不同的模型实施阶段(即,预培训模型,数据预处理,数据增强,模型实施,模型推断和结果后处理)收集了一系列Mediseg技巧,并在实验中探索了有效性这些技巧在一致的基线模型上。与仅关注分割模型的优点和限制分析的纸驱动调查相比,我们的工作提供了大量的可靠实验,并且在技术上更可操作。通过对代表性2D和3D医疗图像数据集的广泛实验结果,我们明确阐明了这些技巧的效果。此外,根据调查的技巧,我们还开源了一个强大的梅德西格存储库,其每个组件都具有插件的优势。我们认为,这项里程碑的工作不仅完成了对最先进的Mediseg方法的全面和互补的调查,而且还提供了解决未来医学图像处理挑战的实用指南,包括但不限于小型数据集学习,课程不平衡学习,多模式学习和领域适应。该代码已在以下网址发布:https://github.com/hust-linyi/mediseg
translated by 谷歌翻译
我们研究大规模网络嵌入问题,旨在学习网络挖掘应用的低维潜在表示。网络嵌入领域的最新研究导致了大型进展,如深散,线,NetMF,NetSMF。然而,许多真实网络的巨大尺寸使得从整个网络学习网络嵌入的网络昂贵。在这项工作中,我们提出了一种新的网络嵌入方法,称为“NES”,其学习来自小型代表性子图的网络嵌入。 NES利用图表采样的理论,以有效地构建具有较小尺寸的代表性子图,该子图尺寸可用于对完整网络进行推断,使得能够显着提高嵌入学习的效率。然后,NES有效地计算从该代表子图嵌入的网络。与众所周知的方法相比,对各种规模和类型网络的广泛实验表明NES实现了可比性和显着的效率优势。
translated by 谷歌翻译
For the aerial manipulator that performs aerial work tasks, the actual operating environment it faces is very complex, and it is affected by internal and external multi-source disturbances. In this paper, to effectively improve the anti-disturbance control performance of the aerial manipulator, an adaptive neural network backstepping control method based on variable inertia parameter modeling is proposed. Firstly, for the intense internal coupling disturbance, we analyze and model it from the perspective of the generation mechanism of the coupling disturbance, and derive the dynamics model of the aerial manipulator system and the coupling disturbance model based on the variable inertia parameters. Through the proposed coupling disturbance model, we can compensate the strong coupling disturbance in a way of feedforward. Then, the adaptive neural network is proposed and applid to estimate and compensate the additional disturbances, and the closed-loop controller is designed based on the backstepping control method. Finally, we verify the correctness of the proposed coupling disturbance model through physical experiment under a large range motion of the manipulator. Two sets of comparative simulation results also prove the accurate estimation of the proposed adaptive neural network for additional disturbances and the effectiveness and superiority of the proposed control method.
translated by 谷歌翻译
How to effectively explore the colors of reference exemplars and propagate them to colorize each frame is vital for exemplar-based video colorization. In this paper, we present an effective BiSTNet to explore colors of reference exemplars and utilize them to help video colorization by a bidirectional temporal feature fusion with the guidance of semantic image prior. We first establish the semantic correspondence between each frame and the reference exemplars in deep feature space to explore color information from reference exemplars. Then, to better propagate the colors of reference exemplars into each frame and avoid the inaccurate matches colors from exemplars we develop a simple yet effective bidirectional temporal feature fusion module to better colorize each frame. We note that there usually exist color-bleeding artifacts around the boundaries of the important objects in videos. To overcome this problem, we further develop a mixed expert block to extract semantic information for modeling the object boundaries of frames so that the semantic image prior can better guide the colorization process for better performance. In addition, we develop a multi-scale recurrent block to progressively colorize frames in a coarse-to-fine manner. Extensive experimental results demonstrate that the proposed BiSTNet performs favorably against state-of-the-art methods on the benchmark datasets. Our code will be made available at \url{https://yyang181.github.io/BiSTNet/}
translated by 谷歌翻译
立体声匹配是许多视觉和机器人应用程序的基本构建块。信息性和简洁的成本量表示对于高准确性和效率的立体声匹配至关重要。在本文中,我们提出了一种新颖的成本量构建方法,称为“注意串联量”(ACV),该方法从相关线索中产生了注意力权重,以抑制冗余信息并增强串联体积中与匹配相关的信息。 ACV可以无缝嵌入大多数立体声匹配网络中,所得网络可以使用更轻巧的聚合网络,同时获得更高的精度。我们进一步设计了快速版本的ACV版本以实现实时性能,名为FAST-ACV,它产生了很高的可能性差异假设,以及来自低分辨率相关线索的相应注意力权重,可显着降低计算和记忆成本,同时保持令人满意的精度。我们快速ACV的核心思想是音量注意传播(VAP),它可以自动从上采样相关量中选择准确的相关值,并将这些准确的值传播到周围环境像素具有模棱两可的相关线索。此外,我们分别基于我们的ACV和Fast-ACV设计了高度准确的网络ACVNET和实时网络快速ACVNET,该网络在几个基准上实现了最新性能(即,我们的ACVNET排名第二,第二名在Kitti 2015和场景流以及所有已发布方法中的Kitti 2012和Eth3d的第三次;我们的快速ACVNET几乎优于现场流的所有最新实时方法,Kitti 2012和2015年,与此同时,与此同时更好的概括能力)
translated by 谷歌翻译
从经验上证明,捕获长期依赖性在各种计算机视觉任务上具有有效性。通过多头注意机制的帮助,通过使用变压器框架来实现这一主题的进步。但是,基于注意力的图像贴片相互作用可能遭受阶级内斑块的冗余相互作用和阶层间斑块的无方向相互作用的问题。在本文中,我们提出了一个新颖的图形推理变压器(Great),用于解析图像,以使图像贴片能够按照关系推理模式进行交互。具体而言,线性嵌入式图像贴片首先投影到图形空间中,其中每个节点代表一组图像贴片的隐式视觉中心,每个边缘都反映了两个相邻节点之间的关系权重。之后,全局关系推理相应地在此图上执行。最后,包括关系信息在内的所有节点都映射回原始空间以进行后续过程。与常规变压器相比,GREAT具有更高的交互效率和更有目的的交互模式。实验是在具有挑战性的城市景观和ADE20K数据集上进行的。结果表明,在最先进的变压器基线上,具有轻微的计算开销,可以实现一致的性能增长。
translated by 谷歌翻译
在本文中,我们研究了非交互性局部差异隐私模型(NLDP)中PAC学习半空间的问题。为了违反指数样本复杂性的障碍,先前的结果研究了一个轻松的设置,在该设置中,服务器可以访问一些其他公共但未标记的数据。我们继续朝这个方向前进。具体来说,我们考虑了标准设置下的问题,而不是以前研究的较大的保证金设置。在对基础数据分布的不同温和假设下,我们提出了两种基于Massart噪声模型和自我监督学习的方法,并表明可以实现仅在维度和多项式中线性的样本复杂性,而其他术语则是线性的。私人数据和公共数据都大大改善了先前的结果。我们的方法也可以用于其他私人PAC学习问题。
translated by 谷歌翻译
我们开发了WOC,这是一个基于网络摄像头的3D虚拟在线聊天室,用于多人交互,该聊天介绍了用户的3D运动,并实时驱动其单独的3D虚拟化头像。与现有的基于可穿戴设备的解决方案相比,WOC使用单个相机提供方便和低成本的3D运动捕获。为了促进身临其境的聊天体验,WOC提供了高保真虚拟化的化身操纵,这也支持用户定义的字符。使用分布式数据流服务,系统为所有用户提供高度同步的运动和声音。部署在网站上,无需安装,用户可以在https://yanch.cloud上自由体验虚拟在线聊天。
translated by 谷歌翻译
基于文本的人搜索是一项具有挑战性的任务,旨在搜索具有查询文本描述的图像库中具有相同身份的行人图像。近年来,基于文本的人搜索取得了良好的进步,而最先进的方法通过学习图像和文本之间的本地细粒度对应来实现出色的性能。但是,现有方法通过手工制作的拆分或外部工具从图像和文本中明确提取图像零件和文本短语,然后进行复杂的跨模式本地匹配。此外,现有方法很少考虑由图像特定信息引起的方式之间的信息不平等问题。在本文中,我们提出了一个有效的联合信息和语义对齐网络(ISANET),用于基于文本的人搜索。具体而言,我们首先设计一个特定图像的信息抑制模块,该模块分别通过关系引导定位和通道注意过滤抑制图像背景和环境因素。该设计可以有效地减轻信息不平等问题,并实现图像和文本之间的信息对齐。其次,我们建议一个隐性的本地对齐模块,以将图像和文本功能适应一组模态共享的语义主题中心,并隐式地学习图像和文本之间的本地细粒度对应关系,而无需其他监督信息和复杂的跨模式互动。此外,引入了全球一致性作为当地观点的补充。在多个数据库上进行的广泛实验证明了所提出的ISANET的有效性和优势。
translated by 谷歌翻译